Банк EMBL

На главную страницу третьего семестра

1. Сравнение разных записей в EMBL

C помощью SRS произвела поиск в БД EMBL. Полученные данные приведены в таблице:

Идентификатор записи EMBL Тип молекулы
Класс данных

Раздел EMBL
Дата создания документа
Описание

Длина последовательности

AF318185 genomic DNA
(геномная ДНК) STD PRO 12-ФЕВ-2001 Escherichia coli transcriptional regulator CueR (cueR) gene, complete cds
(Ген Escherichia coli, кодирующий белок-переносчик Cu) 408

U82664 genomic DNA
(геномная ДНК) STD PRO 19-янв-1997 Escherichia coli minutes 9 to 11 genomic sequence. 139818

U00096 genomic DNA
(геномная ДНК) STD PRO 23-фев-2006 Escherichia coli K12 MG1655, complete genome
(Полный геном Escherichia coli K12 MG1655) 4639675

Аббревиатура STD в названии класса данных обозначает "standard". Это значит, что файл занимает не более 4 Гб, что достигается путем регулирования количества записей в каждом файле.
Аббревиатура PRO в названии раздела EMBL означает Prokaryotes (прокариоты).

Имеет смысл сравнивать полученные данные по полю Описание. Значения типа молекулы, класса данных и разделы EMBL совпадают, а дата создания записи не имеет принципиального значения. Все найденные в БД EMBL последовательности являются геномными ДНК. Запись с AC U00096 является полным геномом Escherichia coli K12 MG1655, соответсвенно, длина этой последовательности наибольшая. Запись с AC AF318185 содержит ген, кодирующий белок - переносчик Cu (меди) - transcriptional regulator CueR (cueR) - также из Escherichia coli. Это самая короткая последовательность из трех найденных. Запись с AC U82664 содержит нуклеотидную последовательность с 9 до 11 минуты. Последовательность включает несколько генов, соответственно, занимает среднее положение по длине.

2. Сравнение описаний гена Escherichia coli в двух разных записях EMBL

С помощью команд entret embl:AF318185 -auto и entret embl:U82664 -auto были получены 2 записи EMBL, с соответсвенными ID. С помощью данных, найденных в этих записях EMBL, была составлена таблица 2:

Последовательности, кодирующие белок CUER_ECOLI в двух записях банка EMBL

I II

ID записи AF318185 U82664

Начало гена в записи 1 93441

Конец гена в записи 408 93848

Направление гена прямое прямое

Примечания* YbbI;принадлежит семейству MerR ; регулирует транскрипцию copA Сходен с H. influenzae HI0293

С помощью команды UNIX seqret и имеющихся сведений о начале, конце и направлении кодирующих последовательностей из полученных записей EMBL я извлекла нуклеотидные последовательности, кодирующие белок CUER_ECOLI(см. таблицу 2), в виде отдельных файлов CUER_gene1.fasta и CUER_gene2.fasta. С помощью программы neddle, я сравнила данные последовательности, построив их глобальное выравнивание. (Использовалась матрица EDNAFULL, со штрафом за гэп - 10.0 и штрафом за продолжение гэпа - 0.5). Последовательности оказались сходны на 100%.

3. Знакомство с записью гена из эукариотического генома

Изучила документ EMBL с идентификационным номером BA000025. Он содержит ген BAT1, находящийся в участке p -плеча 6ой хромосомы человека (Homo sapiens)и кодирующий сериновую протеазу. Схематичное изображение структуры транслируемых участков гена BAT1 (изображены только первый и последний транслируемые участки).

Ген находится на кодирующей цепи

----[302031..302060]--...--[413556..413760]->

Всего в состав гена входит 11 экзонов, но 1ый и 2ой в записи EMBL находятся отдельно от остальных. Второй экзон находится непосредственно перед третьим ( если, конечно, не считать интрон). А вот между первым и вторым лежат кодирующие области гена. Приведена часть документа EMBL с идентификационным номером BA000025: Получается, что в поле CDS описаны только 10 экзонов, причем для второго экзона начало гена не совпадает с данными FT. С первым экзоном ситуация совсем неординарная. Он находится отдельно от остальных и даже не упоминается в CDS, причем его длина составляет всего 30 нуклеотидов, что явно мало для полноценного экзона. Так как первый экзон находится отдельно, то первый интрон получается самым длинным. Но, на мой взгляд, полноценным интроном его также нельзя считать, так как он включает в себя кодирующие последовательности. Биологический смысл этих "нестандартностей" я пока не выяснила.

Самый длинный экзон - 11ый (205 нуклеотидов)
Самый короткий экзон - 4ый (93)
Самый длинный интрон - 6ой (2455)
Самый короткий интрон - 8ой (98)

Рассчеты можно посмотреть в файле Count.xls